Mundo

Inteligência artificial para ajudar pesquisadores a enxergarem o panorama geral na biologia celular
Ao fornecer informações holísticas sobre uma célula, um método baseado em IA pode ajudar os cientistas a compreender melhor os mecanismos das doenças e a planejar experimentos.
Por Adam Zewe - 04/03/2026


Uma nova estrutura de IA identifica quais dados sobre uma célula são capturados por uma modalidade de medição e quais são compartilhados entre múltiplas modalidades. Isso proporciona aos pesquisadores uma visão mais completa do estado da célula e pode ajudá-los a compreender os mecanismos das doenças e a planejar tratamentos. Crédito: iStock


Estudar a expressão gênica nas células de um paciente com câncer pode ajudar biólogos clínicos a entender a origem do câncer e prever o sucesso de diferentes tratamentos. Mas as células são complexas e contêm muitas camadas, então a forma como o biólogo realiza as medições afeta os dados que ele pode obter. Por exemplo, medir proteínas em uma célula pode fornecer informações diferentes sobre os efeitos do câncer do que medir a expressão gênica ou a morfologia celular.

A origem da informação na célula é importante. Mas, para obter informações completas sobre o estado da célula, os cientistas geralmente precisam realizar muitas medições usando diferentes técnicas e analisá-las uma de cada vez. Os métodos de aprendizado de máquina podem acelerar o processo, mas os métodos existentes agrupam todas as informações de cada modalidade de medição, dificultando a identificação da origem de cada dado na célula.

Para superar esse problema, pesquisadores do Broad Institute do MIT e Harvard e do ETH Zurich/Paul Scherrer Institute (PSI) desenvolveram uma estrutura baseada em inteligência artificial que aprende quais informações sobre o estado de uma célula são compartilhadas entre diferentes modalidades de medição e quais informações são exclusivas de um determinado tipo de medição.

Ao identificar quais informações provêm de quais partes da célula, a abordagem proporciona uma visão mais holística do estado celular, facilitando ao biólogo a compreensão do quadro completo das interações celulares. Isso pode auxiliar os cientistas a entender os mecanismos das doenças e a acompanhar a progressão do câncer, de distúrbios neurodegenerativos como o Alzheimer e de doenças metabólicas como o diabetes.

“Quando estudamos células, uma única medição muitas vezes não é suficiente, então os cientistas desenvolvem novas tecnologias para medir diferentes aspectos das células. Embora tenhamos muitas maneiras de observar uma célula, no final das contas, temos apenas um estado celular subjacente. Ao reunir as informações de todas essas modalidades de medição de uma maneira mais inteligente, podemos ter uma visão mais completa do estado da célula”, diz a autora principal Xinyi Zhang SM '22, PhD '25, ex-aluna de pós-graduação do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT e afiliada ao Centro Eric e Wendy Schmidt do Broad Institute do MIT e Harvard, que agora é líder de grupo no AITHYRA em Viena, Áustria.

Zhang é acompanhado em um artigo sobre o trabalho por GV Shivashankar, professor do Departamento de Ciências e Tecnologia da Saúde da ETH Zurich e chefe do Laboratório de Bioimagem Multiescala do PSI; e pela autora sênior Caroline Uhler, professora do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) e do Instituto de Dados, Sistemas e Sociedade (IDSS) do MIT, membro do Laboratório de Sistemas de Informação e Decisão (LIDS) do MIT e diretora do Centro Eric e Wendy Schmidt do Broad Institute. A pesquisa foi publicada hoje na Nature Computational Science .

Manipulando múltiplas medições

Existem muitas ferramentas que os cientistas podem usar para obter informações sobre o estado de uma célula. Por exemplo, eles podem medir o RNA para verificar se a célula está crescendo ou podem medir a morfologia da cromatina para verificar se a célula está respondendo a sinais físicos ou químicos externos.

“Quando os cientistas realizam análises multimodais, eles coletam informações usando múltiplas modalidades de medição e as integram para melhor compreender o estado subjacente da célula. Algumas informações são capturadas por apenas uma modalidade, enquanto outras são compartilhadas entre as modalidades. Para entender completamente o que está acontecendo dentro da célula, é importante saber de onde a informação veio”, diz Shivashankar.

Muitas vezes, para os cientistas, a única maneira de resolver isso é realizar vários experimentos individuais e comparar os resultados. Esse processo lento e trabalhoso limita a quantidade de informações que eles podem coletar.

No novo trabalho, os pesquisadores construíram uma estrutura de aprendizado de máquina que entende especificamente quais informações se sobrepõem entre diferentes modalidades e quais informações são exclusivas de uma determinada modalidade, mas não são capturadas por outras.

“Como usuário, você pode simplesmente inserir os dados do seu celular e o sistema informa automaticamente quais dados são compartilhados e quais são específicos da modalidade”, diz Zhang.

Para construir essa estrutura, os pesquisadores repensaram a maneira típica como os modelos de aprendizado de máquina são projetados para capturar e interpretar medições celulares multimodais.

Normalmente, esses métodos, conhecidos como autoencoders, possuem um modelo para cada modalidade de medição, e cada modelo codifica uma representação separada para os dados capturados por essa modalidade. A representação é uma versão comprimida dos dados de entrada que descarta quaisquer detalhes irrelevantes.

O método MIT possui um espaço de representação compartilhado onde os dados que se sobrepõem entre múltiplas modalidades são codificados, bem como espaços separados onde os dados exclusivos de cada modalidade são codificados.

Em essência, podemos pensar nisso como um diagrama de Venn de dados celulares.

Os pesquisadores também utilizaram um procedimento especial de treinamento em duas etapas que ajuda o modelo a lidar com a complexidade envolvida na decisão de quais dados são compartilhados entre múltiplas modalidades de dados. Após o treinamento, o modelo consegue identificar quais dados são compartilhados e quais são exclusivos quando alimentado com dados de células que nunca viu antes.

Dados distintivos

Em testes com conjuntos de dados sintéticos, a estrutura capturou corretamente informações conhecidas, tanto compartilhadas quanto específicas de cada modalidade. Ao aplicar o método a conjuntos de dados reais de células individuais, ele distinguiu de forma abrangente e automática entre a atividade gênica capturada conjuntamente por duas modalidades de medição, como transcriptômica e acessibilidade da cromatina, identificando também corretamente quais informações provinham de apenas uma dessas modalidades.

Além disso, os pesquisadores utilizaram seu método para identificar qual modalidade de medição capturou um determinado marcador proteico que indica danos ao DNA em pacientes com câncer. Saber a origem dessa informação ajudaria um cientista clínico a determinar qual técnica utilizar para medir esse marcador.

“Existem muitas modalidades em uma célula e é impossível medi-las todas, então precisamos de uma ferramenta de previsão. Mas aí surge a questão: quais modalidades devemos medir e quais devemos prever? Nosso método pode responder a essa pergunta”, diz Uhler.

No futuro, os pesquisadores pretendem permitir que o modelo forneça informações mais interpretáveis sobre o estado da célula. Eles também querem realizar experimentos adicionais para garantir que ele distinga corretamente as informações celulares e aplicar o modelo a uma gama mais ampla de questões clínicas.

“Não basta apenas integrar as informações de todas essas modalidades”, diz Uhler. “Podemos aprender muito sobre o estado de uma célula se compararmos cuidadosamente as diferentes modalidades para entender como os diferentes componentes das células se regulam mutuamente.”

Esta pesquisa é financiada, em parte, pelo Centro Eric e Wendy Schmidt do Broad Institute, pela Fundação Nacional de Ciência Suíça, pelos Institutos Nacionais de Saúde dos EUA, pelo Escritório de Pesquisa Naval dos EUA, pela AstraZeneca, pelo Laboratório de IA Watson do MIT-IBM, pela Clínica MIT J para Aprendizado de Máquina e Saúde e por um Prêmio de Investigador Simons.

 

.
.

Leia mais a seguir